查看原文
其他

冯志伟:关于“第三人称数据”的观察和检验 | 序陆晓蕾 倪斌《Python 3:语料库技术与应用》

关于“第三人称数据”的观察和检验

——《Python 3:语料库技术与应用》序

冯志伟

      我怀着极大的兴趣通读了陆晓蕾博士的新著《Python 3:语料库技术与应用》。语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。

      语料库技术和应用是重要的语言学研究手段,但是,在已经出版的语料库著作中多涉及语料库的应用方面,关于语料库技术的著作还不太多见。

      从语料库研究的实际情况看来,语料库技术是不可忽视的。我曾经说过,为了适应信息时代语言学研究的新发展,语言研究者有必要进行更新知识的再学习,努力完善自己的知识结构,这应当是信息时代的语言研究者责无旁贷的任务。人文科学背景的语言研究者可以先通过学习利用一些编程手段和技术,从语料获取入手,逐渐获得利用计算机计算语言的能力,使自己成为文理兼通、博学多才的语言学一代新人。

      如果搞语言研究不使用语料库或概率,很可能就只能使用自己根据“内省”(introspection)得到的数据,这是“第一人称数据”(first person data),在使用第一人称数据时,语言研究者既是语言数据的分析者,又是语言数据的提供者。“第一人称数据”主观性很强,往往见仁见智。

      使用根据“问卷调查”之类的“诱导”(elicitation)得到的数据,这是“第二人称数据”(second person data)。在使用第二人称数据时,语言研究者不充当数据的提供者,数据需要通过“作为第二人称的旁人”的诱导才能得到。

      如果使用语料库的数据作为语言研究的数据来源,那么,语言研究者就不再充当数据的提供者或诱导者,而是充当数据的观察者或检验者了,这种通过“观察”(observation)和“检验”(verification)得到的数据是“第三人称数据”(third person data)。这是2000年Widdowson在他的论文The limitation of linguistics applied中提出的看法,值得我们借鉴。

      当然,如果使用第三人称的观察数据,语言学研究者同时也可以充当数据的“内省者”或“诱导者”,所以,第一人称和第二人称与第三人称是难以分开的,第三人称方法显然是比较科学的获取数据的手段。我们认为,语言学的一切知识,不论是过去通过“内省”或“诱导”得到的知识,最终都有必要放到语料库中来“观察”和“检验”,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在,我们这一代语言研究者别无选择。

      在大数据(big data)时代,尤其是近年来的互联网(web)技术的日新月异,丰富的语料资源变得唾手可及。然而,使用传统的基于“内省”或“诱导”的方法来获取语言知识,犹如以管窥豹,以蠡测海。这种获取语言知识的方法不仅效率极低,而且带有很大的主观性和片面性。语料库语言学提倡建立语料库,在计算机的辅助下,使用统计的方法或机器学习的方法,自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着互联网日新月异的发展,互联网上有着无比丰富的文本语言数据,其中有经过标注的结构化的语言数据,也有未经过标注的非结构化的语言数据,我们可以从互联网上,使用语料库技术,从这些大量的语言数据中自动或半自动地获取客观而全面的语言知识。这是语言学获取语言知识方式的巨大变化,在语言学的发展历史上具有革命性的意义。

      我们应该敏锐地注意到这样的变化,与时俱进,努力学习语料库技术,逐渐改变传统语言学中获取语言知识的手段。该书除了讲述语料库的应用之外,还讲述了语料库的技术,这是难能可贵的,这也是该书最突出的特色。

      该书使用Python来进行语料库的获取与分析,Python作为一门高级语言,功能十分强大,易学易用,在语料获取和分析方面具备得天独厚的优势。作者选择Python作为工具,乃是明智之举。

      由于该书强调讲述语料库技术,实践性很突出,建议读者上机上线进行实际操作,切实地掌握这些技术,与时俱进,自觉地进行知识更新的再学习。读者在学习这些技术的时候,希望注意语料库的版权问题,遵守网络ROBOTS协议的有关规定。

      陆晓蕾博士是学文学出身的,几年来,她自学编程和语料库技术,学会了Python语言,还在课程中建设网站以提高效率。她的这本《Python 3:语料库技术与应用》,是她近年来在语料库研究实践深入思考的产物。语料获取与应用是个实践性特别强的工作,该书以大量的事例代码,带读者进入代码的世界。该书在平时也可以作为读者案头的一本Python工具书。在介绍语料的同时,陆博士还详细论述了网络爬虫相关的法律协议和常识。

      作为数据驱动的工作,无论是在统计机器翻译还是翻译质量评估等自然语言处理任务中,都缺少不了高质量语料和语言研究者的参与。语料库技术把语言研究者从艰苦繁重的手工劳动中解放出来,使语言研究者可以集中精力来研究和思考其他重要问题,这对于促进语言学研究的现代化具有不可估量的作用。在参与这些系统的研制过程中,语言研究者应当努力地学习计算机算法的理论和技术,不断地进行更新知识的再学习。

      希望读者在阅读了该书之后,积极地投身到语言库技术的研究工作中去,为语言学的新发展贡献聪明才智。


 本文摘自:陆晓蕾、倪斌 著《Python 3:语料库技术与应用》


(购书链接)


方法工具


1.方法工具

雷蕾教授《基于Python的语料库数据处理》重磅上市



互动赠书||带你玩转翻译技术


2.公益讲座

心理语言学系列论坛预告(1月13-3月24日)

第八期体认语言学讲学班通知(线上)

语料库语言学讲座预告

语言文学公益讲座回放集锦(六)


3.项目申报
(1)申报书发生重大变化,怎么拿下2021国社科?
(2)如何成功申报国家社科基金后期资助项目




(3)How  to  get  教育部人文社科基金项目


本文来源:语言科学微信公众号


相关文献延伸阅读(研习人指引)

敬告:本公号友情提供相关书讯或书目索引链接,

以便爱书人前往第三方平台选购


语言学图书精选推荐


推荐阅读:
教育部语信司 | 2020年语言文字信息管理工作实录
汉语国际教育怎么办?大咖云集出谋划策(李宇明、刘利、王甬、吴应辉、王辉……)
吴勇毅:国际中文教育“十四五”展望
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
大数据分析:2021国家社科项目指南最新选题方向和热点,项目申请重要参考
研修 | 黄忠廉教授深度解读2021国家社科申报重大变化
2021年国家社科基金申报通知的四个新变化
教育部人文社科基金 vs 国家社科基金
2020人大复印资料语言学·文学类最受欢迎文章集萃
教育部语信司 | 夹用英文的中文文本的标点符号用法(草案)
【收藏】2021年国家社科基金申请书撰写参考模板
聚焦 | 2020年度中国十大学术热点画像!
外语教学:国别和区域研究专题 |《外语学刊》
荐读|穿越到过去,如何为你的文明发明一种语言?
一个时代的转身:川普离任演讲 + 拜登就职演讲(视频 + 中英全文)
《全球视野下的孔子学院研究》书系约稿啦!
教育部:全球有70个国家将中文纳入国民教育体系
近五年国家社科基金年度项目 语言学立项名单一览
近四年国家社科青年项目“语言学”类立项名单一览
译词 | 64个跨文化核心词(含中英释义)
黄友义:疫情之后看外语和翻译的多与少 |《中国外语》
乔姆斯基:语言学的“当时”和“现在”
陈平:语言交叉学科研究的理论与实践
陈平 | 交叉学科教学与研究:做什么,怎么做?
刘海涛:学科交叉是发现语言规律的利器
吴应辉 梁宇:交叉学科视域下国际中文教育学科理论体系与知识体系构建
吴应辉:汉语国际教育面临的若干理论与实践问题
图说孔子学院新机制 新模式 | 2020孔子学院合作论坛主旨发言
孔子学院:践行《世界文化多样性宣言》的东方典范
荐书 | 潘艳艳《多模态国防话语的认知批评研究》附胡壮麟教授、张辉教授序
多模态视野下的国家媒介形象:概念与特征 | 中国社会科学报
新书 | 顾曰国 黄立鹤:《老年语言学与多模态研究》
心理语言学系列论坛预告(1月13-3月24日)
视频+全文| 马斯克专访,远见令人震撼!语言是人类最伟大的发明
语言学领域有哪些令人“毛骨悚然”的理论?
刘英凯:归化——翻译的歧路
刘英凯:信息时代翻译中“陌生化”的必要性和不可避免性
交流 | 那些隐藏在高校“文学院”中的“自然语言处理”专业
李晨阳:关于新时代中国特色国别与区域研究范式的思考
推荐 | 第二语言教学法主要流派全收录(值得收藏)
重磅!《大学英语教学指南(2020版)》正式出版!
《新时代的中国国际发展合作》白皮书(全文)
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
专访 | 乔姆斯基:知识分子沉默不语是一种罪恶
沈家煊:“能简则简”和“分清主次”——语言研究方法论谈
李强:关于区域与国别研究方法论的思考
神经语言学国际热点与趋势的科学知识图谱分析
学者聚焦 | 潘文国:徜徉在中外古今之间
学者聚焦 | 文秋芳:对外语专业学生思辨能力培养的四点建议
姜望琪:Halliday的语篇衔接理论 |《语篇语言学研究(第二版)》
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
重磅 | 全国高校拟新增语言类专业硕博学位点名单(语言服务最新整理版)
新书 | 王军:《衔接的认知语用研究》 商务印书馆
【高端笔谈】外国语言文学学科高质量发展的路径
邢向东:论语言研究中的问题导向
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
以深度教学促进外语课程思政 |《中国外语》2020(5)
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
教育部高教司司长吴岩:新文科学科没做好,高等教育不能说好
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
圣杯就在眼前:“现代语言学之父”乔姆斯基的批判与期望
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
马会娟:中国翻译理论研究回顾与展望
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
报告全文 | 教育部高教司司长吴岩:积势蓄势谋势 识变应变求变 全面推进新文科建设
王学典:何谓“新文科”?
新文科建设|新文科建设宣言。
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
张伟年 段宛云等:战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析
语言专业师生必看的10部电影(附观看链接)
蔡基刚:应急语言服务与应急语言教学探索
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
中国外语院校本科教学质量报告(2019)
何莲珍:新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点
向明友:顺应新形势,推动大学英语课程体系建设—《大学英语教学指南》课程设置评注
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
南开大学外国语学院教职工招聘与人才引进公告(2021版)
重磅 | 2020软科中国最好学科排名出炉(中国语言文学 & 外国语言文学)
书讯 | 利奇《语用学原则》中译本出版
Fodor《心理语义学》:在心灵与语言之间
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
麦蒂森论翻译 | 系统功能语言学与翻译研究
荐书 | 北京大学出版社语言学图书书单
视频 | 听胡壮麟教授讲《语言学教程》那些事儿
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
戴炜华  吴国玢:论语言学的跨学科研究
大师课程 | 乔姆斯基等:语言,思维和大脑
王缉思:浅谈区域与国别研究的学科基础
21世纪以来中国的太平洋岛国研究:历史、现实与未来
程琪龙:语言研究的超学科意识 |《外国语》2020(2)
视频 | TED Ed:语言进化编年史
李建波 李霄垅 | 外国文学和国别与区域的交叉研究:国情研究专家的视角
陈坚林:试论人工智能技术在外语教学上的体现与应用
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
外语教学类高被引论文排行榜 TOP 10
“国家形象研究”高被引论文排行榜 TOP 10
郭英剑:对英语专业的不当批评,可以休矣
蔡基刚:学术英语? 通用英语? 对学术英语再认识
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
多位著名专家学者分享英语学习方法
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
多模态话语分析:以“疫情防控外语通”为例
《牛津英语》语法大讲堂(视频全集)
所以,什么是语言学?| 语言学微课堂

扫码关注,即可获取最新入群二维码

目前已有2.19万语言文学、国别区域

研习者关注↑↑↑本公众号,

欢迎加入我们,交流分享,共同学习!

一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存